[レポート]Amazon SageMaker HyperPodで高性能なFMをスケールして実行 #AIM314-R1

re:Invent 2024のワークショップ「Run high-performing FMs at scale with Amazon SageMaker HyperPod」についてレポートします。

AWS re:Invent 2024

#Amazon SageMaker

平野文雄

2024.12.06

AWS認定トレーニング講師の平野@おんせん県おおいたです。
今日は「Run high-performing FMs at scale with Amazon SageMaker HyperPod」というタイトルのワークショップについてレポートします。
 公式セッション紹介（日本語訳）!このワークショップでは、Amazon SageMaker HyperPod上での基礎モデル（FM）の管理におけるエンドツーエンドのワークフローを探究します。 議論では、パラメータ効率の良い微調整（PEFT）、モデルのデプロイ、およびサービスという4つの重要な側面を取り上げます。 さらに、システムの可視性やAmazon SageMaker HyperPodの回復力機能（障害からの復旧やジョブの自動再開など）といった運用面についても掘り下げていきます。このハンズオンセッションでは、AWS上で基礎モデルを効率的に管理およびデプロイする方法について、しっかりと理解することができます。最先端の技術とツールを使用して、FM開発における高いパフォーマンス、信頼性、およびスケーラビリティを確保する方法を学びます。参加するには、ノートパソコンを持参する必要があります。
 概要/オススメポイントAmazon SageMaker HyperPod でトレーニング用のクラスターを構築するワークショップになります。
このワークショップは下記のように公開されています。
https://catalog.us-east-1.prod.workshops.aws/workshops/2433d39e-ccfe-4c00-9d3d-9917b729258e/en-US
この中可から下記のようにピックアップしてハンズオンが実施されました。

Prerequisites

At an AWS Event

Cluster Setup

a. Setup Environment Variables
b. Configure the EKS Cluster
c. Install Dependencies
d. Create the HyperPod Cluster
e. View the AWS Console

Observability

Amazon CloudWatch Container Insights

a. Container Insights setup

Pytorch DDP on CPU

c. Simple Execution

Resiliency

a. Manual Reboot (while training job is running)

Ray on HyperPod

a. Setup

Open aws-do-ray container shell

Configure AWS credentials and environment variables

Verify connection to hyperpod cluster

Setup dependencies

c. Serving Stable Diffusion Model for Inference

Create a RayService

Access Ray Dashboard (Optional)

a. Port-forward the service locally and use a terminal-based browser to view the dashoard
a. Port-forward the service locally and use a terminal-based browser to view the dashoard

Inference

Edit stable_diffusion_cpu_req.py and modify the value of variable prompt to customize your request

Observability

Amazon CloudWatch Container Insights

b. Container Insights Dashboards

 まとめワークショップの概要を紹介しました。

基盤モデルの学習は規模が多くなり、クラスターでのトラブルの影響が広くなります。

それを解決するための手法となります。

普段利用しないサービスでしたので、かなり勉強になりました。